매일매일 조금씩

데이터 분석

Intro

이 섹션은, 다른 섹션들과 조금 다르다. 일기나 메모장처럼 잊지 않기 위해, 내 생각을 정리하기 위한 곳이 아니다. 데이터 분석을 맛보고 싶은 사람들을 위한 글들이며, 그렇지 않은 사람들이 보이에도 내 블로그가 좀더 '그럴듯해 보이기' 위한 것이다.

실제 업무에서 하는 분석들은 다루는 데이터부터 어마무시하게 복잡하다. 그리고 지저분하다. 프로젝트에 처음 조인한 사람에게 데이터에 대해 설명해주는 것도 일주일쯤 걸린다고 보면 되고, 그마저도 상세한 내용은 직접 다뤄보며 파악해가거나 질문이 생길때마다 알려줄 수밖에 없다.

업무에서 사용하는 기술은 그나마 좀더 일반적으로 통용될 수도 있겠다. 어디서나 데이터 분석에 사용하는 요소기술들은 비슷할 것 같다. (아닐수도 있지만) 결국 레고블럭 같은 요소기술들을 잘 엮어서 큰 하나의 작품을 만들어야 기술이기 때문에, 역시 요소기술들에 대해 낱낱이 아는 것만으로는, 실무에 적용하기엔 불충분하다. 그럼에도 불구하고, 그게 어딘가

Sample Data

샘플 데이터는 아주 많다. 파이썬 라이브러리 몇개만 살펴봐도 널리 쓰이는 데이터가 몇개 정해져있다. 식물에 대해 거의 아무것도 모르는 나도, iris 꽃잎에 대해서는 10분정도는 떠들 수 있다. 그런데 거기까지다. 데이터 분석이라 하면 발견-관찰-가설-검증 사이클의 반복이라고도 할 수 있는데, 상상력을 발휘할 수 없는 분야라면 분석 결과도 무미건조할 수 밖에 없다. 이런 데이터로는 풍부하고 지속적인 포스팅은 어려워서, 정부기관에서 제공하는 데이터를 생각해냈다.

국가통계포털

먼저 통계청의 국가통계포털을 찾아봤다. 인구관련 데이터정도 생각했는데, 훨씬 방대했다. 소득, 노동, 범죄, 사고, 복지, 문화 등등 그리고 홈페이지에서 메뉴 클릭해갈때마다 주소가 바뀌는 것도 좋았다. 크롤링이 편해지기 때문이다. 이걸 뭐라고 부르는지... 여기만 크롤링 성공해도 충분하겠다 싶었다. 아쉽게도 최종 데이터가 출력되는 프레임은 소스가 따로 있었다.

경기데이터드림

다음으로는, 경기데이터드림이 나오더라. 경기도 한정 데이터라는 제약이 있을지 몰라도, OpenAPI를 제공한다는 점이 매우 장점이고, 제공하는 데이터 항목수도 많아서 (블로그에 계속 포스팅하기에) 좋아보였다. 이는 메뉴에서 데이터-데이터셋 에서 확인할 수 있다.

서울 열린데이터 광장

서울에서도 경기도와 유사하게 꾸려진 데이터 포털을 운영하고 있다. 서울 열린데이터 광장에는 12개 항목의 데이터에 대해 제공하고 있고, 역시 꽤 많은 데이터에 대해 OpenAPI를 지원하고 있다. 훑어본 수준이지만 '직업 만족도 통계' 라던가 '스트레스 체감도 통계' 는 제목만 읽어도 재밌다. 아마 설문조사 형태로 진행할텐데, 샘플수와 채집방법은 잘 나올런지.

교통사고정보 개방시스템

많은 데이터는 아니더라도 교통사고와 관련된 데이터를 제공하고 있는 포탈이 있다. 교통사고정보 개방시스템에서는 연도별, 시군구별로 교통사고 건수와 사망자수, 부상자수 등을 제공하고 있다. 인구수와 등록자동차수 등과 비교하여 분석해보면 좋을것 같아서 리스트에 추가했다.

나라지표

약 15개의 영역에 대해 인덱스를 제공하는 e-나라지표 가 있었다. 가장 가볍게 시작하는 데이터 분석이 되지 않을까 싶었다. 아쉬운 점은 OpenAPI 를 제공하지는 않는다는 점이었고, 그나마 다행인 것은, 페이지소스에 데이터가 드러나서 크롤링이 쉽다는 점이었다. 물론 직접 하다보면 예상 못한 어려움들이 있겠지만.

고속도로 공공데이터 포털

이쯤되니, 왠지 교통관련 데이터가 많다고 느껴졌다. 한국도로공사의 고속도로 공공데이터 포털 에서는 교통량이나 도로 현황, 통행료 등의 데이터가 있었다. 얼핏보니 차종 별로 고속도로 교통 법규 위반 사례도 있는 것 같은데, 재밌는 분석이 나올 수 있는 컨텐츠가 아닌가 싶다.

살펴보기 전에는 OpenAPI 를 제공하는 데이터만 관심대상이었는데, 찾다보니 생각이 바뀌었다. 주 목적이 데이터 분석인만큼 데이터 확보까지는 수작업으로 해도 괜찮겠다 싶었다. 이런 경우, 자동으로 업데이트 하기는 어렵다는 점이 있다. 물론 국가통계포털의 데이터도 자바스크립트를 잘 안다면, 크롤링도 가능한 구조인 것 같다.